Администраторы отказоустойчивых кластеров хранилищ VMware vSAN часто сталкиваются с проблемами производительности, наблюдаемыми в виртуальной среде. Как правило, о таких проблемах администратор узнает двумя путями: либо ему сообщают пользователи, либо он видит алерты, которые генерируются в консоли клиента vSphere Client при превышении определенных пороговых значений.
Так или иначе, администратор должен, прежде всего, выяснить, что проблема низкой производительности приложений проявляет себя именно на уровне гостевой системы. В этом случае VMware предлагает придерживаться следующего рабочего процесса:
Основные моменты траблшутинга по такому воркфлоу рассказаны в документе "Troubleshooting vSAN Performance". Самый очевидный симптом проблем - это задержки (Latency) на уровне гостевой ОС (то есть время, затраченное на выполнение транзакции ввода-вывода), которые приводят к медленной работе приложений.
Задержки измеряются в миллисекундах, и интерпретация их значений зависит от контекста - размер блока ввода-вывода, характер потока (чтение/запись, последовательное/случайное). При этом latency измеряется на некотором сегменте прохождения команд к хранилищу, на каждом из участков которого также возникают свои составляющие задержек. Анализ таких компонентов Storage stack в контексте задержек и поиск узких мест - и есть основная задача администратора, решающего проблемы низкой производительности приложений для пользователей. Многое из этого можно делать с помощью утилиты ESXTOP, о которой мы много писали.
Обратите внимание, что на иллюстрации фреймворка выше, анализ виртуальной инфраструктуры и анализ приложений и их рабочих процессов находится еще до анализа метрик. Это связано с тем, что выбор метрик, на которые стоит обратить внимание в среде VMware vSAN, зависит от характера происходящих проблем.
После того, как администратор выяснил основные признаки проблемы и локализовал ее на уровне приложений, можно приступать к анализу метрик. Алгоритм действий приведен в документе "Troubleshooting vSAN Performance":
Тут рекомендуется делать следующее:
Шаг 1 - просматриваем метрики в гостевой ОС проблемной ВМ, чтобы убедиться, что проблемы с производительностью хранилища ощущаются на уровне приложений.
Шаг 2 - просматриваем метрики на уровне кластера vSAN, чтобы в целом понять масштаб проблемы - нет ли других аномалий в кластере. Это позволяет идентифицировать потенциальные "наводки" от других компонентов виртуальной инфраструктуры.
Шаг 3 - просматриваем метрики на уровне хоста ESXi, чтобы соотнести метрики внутри гостевой ОС и всего хоста в целом с точки зрения latency.
Шаг 4 - смотрим на хосте метрики дисковой группы, чтобы найти источник повышенной latency.
Шаг 5 - если не нашли проблему на шаге 4, то смотрим на сеть хоста и метрики VMkernel, чтобы убедиться, что сеть функционирует штатно.
То есть смысл прост - если что-то тормозит в кластере VMware vSAN, то это либо дисковая подсистема, либо сетевая инфраструктура. Ну и главное - правильно идентифицировать хост/хосты ESXi, где находятся компоненты виртуальной машины.
И еще одна важная рекомендация - при траблшутинге старайтесь не менять несколько настроек одновременно, чтобы решить проблему. Во-первых, вы не сможете понять, какая из настроек или их комбинация дала правильный эффект, а, во-вторых, вы не сразу можете обнаружить, что сделанные вами настройки может и помогли машине работать быстрее, но остальные машины этого хоста или кластера значительно просели по производительности. А вернуть все назад может быть не так уж и просто.
Начать надо с того, что когда вы запустите графический установщик виртуального модуля vCSA в среде VMC, то получите вот такое сообщение об ошибке на этапе указания параметров хоста для развертывания:
User has no administrative privileges
Это интересно тем, что на самом деле установщик vCSA не требует административных привилегий и, по идее, не должен выдавать такого сообщения об ошибке. Поэтому Вильям нашел, все-таки, способ развернуть vCSA в публичном облаке.
Для этого надо сделать следующее:
1. Создать вспомогательную ВМ (например, с Windows 10 на борту), которая будет использовать для развертывания нового экземпляра vCSA с помощью командной строки. Вы можете использовать для этой цели любую ОС, которая поддерживает интерфейс vCSA CLI.
2. Настроить соединение между сетевыми экранами Management (MGW) и Compute (CGW) для этой машины, как мы писали вот тут, чтобы установщик имел доступ к административной сети.
3. Развернуть vCSA через CLI с помощью файла конфигурации развертывания в формате JSON, настроенного под ваше окружение. Вот пример содержимого такого файла, который вы можете взять за основу:
После этой процедуры вы получите работающий VMware vCenter Server Appliance 6.7 Update 2 в своей инфраструктуре, который сможете использовать как для тестирования его возможностей, так и для полноценного управления виртуальной средой:
Для многих пользователей публичного облака VMware vCloud on AWS одним из первых возникает вопрос - как предоставить доступ из виртуальной машины в сети Compute Network в сеть SDDC Management Network, например, для целей управления сервисами vCenter или другими службами виртуального датацентра?
Также этот вариант использования может быть востребован, когда вам требуется доступ к управляющим компонентам посредством таких интерфейсов, как PowerCLI, или развертывание виртуальных сервисов с помощью утилиты OVFTool. Вильям Лам написал об этом хорошую статью, и мы приведем здесь ее основные моменты.
Естественно, что для целей обеспечения безопасности в облаке, эти две сети по умолчанию разделены. Первое, что вам нужно сделать - это понять, с каким типом решения NSX для управления сетью вы работаете (NSX-T или NSX-V). Сделать это можно с помощью вот этой статьи.
Процедура для NSX-V
В среде NSX-V вам нужно настроить IPsec VPN между компонентами Management Gateway (MGW) и Compute Gateway (CGW) перед тем, как заработает коммуникация между сетями.
Для настройки VPN для компонента Management Gateway нажимаем Add VPN в консоли VMC и вводим требующуюся информацию сетевой идентификации (публичный IP удаленного шлюза, параметры удаленной сети и ключи), что должно отражать конфигурацию Compute Gateway (остальные настройки можно оставить по умолчанию).
Далее надо настроить VPN для Compute Gateway путем выполнения тех же шагов, что и в предыдущем абзаце, только указав конфигурацию шлюза Management Gateway. После того, как настройки обеих VPN будут сохранены, начнет отображаться статус "Partially Connected". Потом нажимаем ссылку Actions в правом верхнем углу, выбираем Edit и сохраняем настройки еще раз, чтобы на обоих шлюзах показался статус "Connected":
Теперь надо настроить сетевой экран Compute Gateway Firewall, чтобы разрешить исходящие соединения в SDDC Management Network по порту 443 для требуемых ВМ (этот порт используется для vSphere Client, а также для доступа через средства OVFTool и PowerCLI).
В приведенном ниже примере машина имеет адрес 192.168.1.4, и мы хотим позволить ей общаться с сетью 10.2.0.0/16 через порт 443:
Теперь нужно добавить в фаервол Management Gateway Firewall правила для разрешения входящих соединений для vCenter Server и хостов ESXi по порту 443 от наших определенных ВМ. Здесь все точно так же - указываем IP машины 192.168.1.4, и нам нужно добавить 2 правила для входящего трафика для разрешения коммуникации со средствами управления виртуальной инфраструктурой:
После этого вы можете залогиниться в виртуальную машину и использовать средства управления платформой vSphere, например, применять утилиту импорта виртуальных модулей OVFTool, как рассказано тут.
Процедура для NSX-T
В среде NSX-T вам не нужно создавать VPN для получения функциональности маршрутизации, которая изначально заложена в маршрутизаторе T0, ведь обе сети Management и Compute Network присоединены к T0. Между тем, правила сетевого экрана добавлять, конечно же, нужно.
В решении NSX-T используются сущности Inventory Groups, чтобы сгруппировать набор виртуальных машин и/или IP-адреса/сети, которые можно использовать при создании правил сетевого экрана.
Создаем две Inventory Groups для нашей Compute Group - одну для нашей виртуальной машины и одну для того, чтобы представлять сеть Management Network. Идем в Groups и в левой части выбираем пункт "Workload Groups", где создаем 2 группы:
Windows10 с Member Type вида Virtual Machine и указываем ВМ из инвентаря.
VMC Management Network с Member Type вида IP Address и указываем сетевой диапазон 10.2.0.0/16.
Теперь нужно создать еще одну Inventory Group для нашей Management Group, которая будет отражать ВМ, для которой мы хотим сделать доступ. Чтобы это сделать, идем в Groups, выбираем "Management Groups" и создаем следующую группу:
Windows10 Private IP с Member Type вида IP Address и указываем частный IP-адрес ВМ (в данном случае это 192.168.1.2).
Не забывайте нажать кнопку Publish, чтобы сохранить и применить правило сетевого экрана.
Теперь нужно создать правило сетевого экрана, чтобы разрешить Compute Gateway исходящие соединения к SDDC Management Network по порту 443 для нужных ВМ. Идем в Gateway Firewall и выбираем "Compute Gateway", где создаем новое правило, которое отражает группу Windows 10 как источник и группу VMC Management Network как назначение, а в качестве сервиса выбираем HTTPS (помним также про кнопку Publish).
Теперь надо создать правила на уровне Management Gateway, чтобы разрешить входящие соединения к хостам vCenter Server и ESXi по порту 443 из нужных нам ВМ. Идем в Gateway Firewall, слева выбираем "Management Gateway", затем создаем правило, которое отражает группу Windows 10 как источник, а в качестве группы назначения указываем vCenter и ESXi (сервис ставим также HTTPS):
После выполнения этой процедуры вы сможете залогиниться в ВМ Windows и использовать утилиту OVFTool для импорта/экспорта ВМ в ваш виртуальный датацентр (см. также данную процедуру здесь).
Если все было сделано правильно, вы должны иметь возможность доступа к интерфейсу vSphere Client из нужной вам ВМ, а также возможность выполнять сценарии PowerCLI и использовать утилиту OVFTool, как показано на скриншоте ниже:
Вчера мы писали об ограничениях технологии Persistent Memory в vSphere 6.7, которая еще только изучается пользователями виртуальных инфраструктур на предмет эксплуатации в производственной среде. Преимущество такой памяти - это, конечно же, ее быстродействие и энергонезависимость, что позволяет применять ее в высокопроизводительных вычислениях (High Performance Computing, HPC).
Ну а пока все это изучается, сейчас самое время для проведения всякого рода тестирований.
NVDIMM-N от компаний DELL EMC и HPE. NVDIMM-N - это такой тип устройств DIMM, который содержит модули DRAM и NANDflash на самом DIMM. Данные перемещаются между двумя этими модулями при запуске или выключении машины, а также во время внезапной потери питания (на этот случай есть батарейки на плате). На текущий момент есть модули 16 GB NVDIMM-Ns.
Intel Optane DC persistent memory (DCPMM) - эта память не такая быстрая как DRAM и имеет бОльшие задержки, но они измеряются наносекундами. Модули DCPMM изготавливаются под разъем DDR4 и доступны планками по 128, 256 и 512 ГБ. В одной системе может быть до 6 ТБ памяти DCPMM.
Для тестирования производительности такой памяти были использованы следующие конфигурации тестовой среды:
При тестировании производительности ввода-вывода были сделаны следующие заключения:
Накладные расходы на поддержку PMEM составляют менее 4%.
Конфигурация vPMEM-aware (когда приложение знает о vPMEM устройстве) может дать до 3x и более прироста пропускной способности в смешанном потоке чтения-записи в сравнении с традиционными устройствами vNVMe SSD (они использовались в качестве базового уровня).
Задержки (latency) на уровне приложений для конфигураций vPMEM составили менее 1 микросекунды.
Также тестировалась производительность баз данных Oracle, и там были сделаны такие выводы:
Улучшение на 28% в производительности приложения (количество транзакций HammerDB в минуту) с vPMEM по сравнению с vNVME SSD.
Увеличение 1.25x DB reads, 2.24x DB writes и до 16.6x в числе записей в DB log.
До 66 раз больше уменьшение задержек при выполнении операций в Oracle DB.
В MySQL тоже весьма существенное улучшение производительности:
Для PMEM-aware приложений тоже хорошие результаты:
Ну а остальные детали процесса проведения тестирования производительности устройств PMEM вы найдете в документе VMware.
В августе прошлого года мы сделали статью о новом виде памяти Persistent memory (PMEM) в VMware vSphere, которая находится на уровне между DRAM и Flash SSD с точки зрения производительности:
Надо сказать, что устройства с Persistent Memory (они же, например, девайсы с Intel Optane Memory) уже начинают рассматривать некоторые пользователи для внедрения в своей виртуальной инфраструктуре, поэтому надо помнить об их ограничениях, которые раскрыл Дункан Эппинг.
С точки зрения предоставления памяти PMEM виртуальной машине, на платформе vSphere есть 3 способа:
vPMEMDisk - vSphere представляет PMEM как обычный диск, подключенный к виртуальной машине через контроллер SCSI. В этом случае ничего не нужно менять для гостевой ОС или приложений. В таком режиме работают любые системы, включая старые ОС и приложения.
vPMEM - vSphere представляет PMEM как устройство NVDIMM для виртуальной машины. Большинство последних версий операционных систем (например, Windows Server 2016 и CentOS 7.4) поддерживают устройства NVDIMM и могут предоставлять их приложениям как блочные или байт-адресуемые устройства. Приложения могут использовать vPMEM как устройство хранения через тонкий слой файловой системы direct-access (DAX), либо замапить регион с устройства и получать к нему прямой доступ через байтовую адресацию. Такой режим может быть использован старыми или новыми приложениями, но работающими в новых версиях ОС, при этом версия Virtual Hardware должна быть не ниже 14.
vPMEM-aware - это то же самое, что и vPMEM, но только с дополнительными возможностями приложения понимать, что машина использует такое устройство, и пользоваться его преимуществами.
Если виртуальная машина использует такие устройства, то она имеет очень существенные ограничения, которые на данный момент препятствуют их использованию в производственной среде. Они приведены в документе "vSphere Resource Management Guide" на странице 47 внизу. А именно:
vSphere HA - полностью не поддерживается для машин с включенными vPMEM устройствами, вне зависимости от режима использования.
vSphere DRS - полностью не поддерживается для машин с включенными vPMEM устройствами (машины не включаются в рекомендации и не мигрируют через vMotion), вне зависимости от режима использования.
Миграция vMotion для машин с устройствами vPMEM / vPMEM-aware доступна только на хосты с устройствами PMEM.
Миграция vMotion машин с устройством vPMEMDISK возможна на хост без устройства PMEM.
Будем надеяться, что эта ситуация в будущем изменится.
Таги: VMware, vSphere, Memory, PMEM, Intel, VMachines, HA, DRS
Недавно мы писали о выходе обновленной версии решения для обеспечения катастрофоустойчивости виртуальных датацентров VMware Site Recovery Manager 8.2. Многие пользователи после ее релиза задались вопросом миграции на виртуальный модуль (Virtual Appliance), который построен на базе операционной системы Photon OS и управляется через веб-браузер.
Давайте вкратце рассмотрим этот процесс. В целом процедура миграции выглядит так:
Убеждаемся, что ваш SRM на базе Windows обновлен до версии 8.2.
Экспортируем конфигурацию и останавливаем SRM на хосте с Windows.
Развертываем Site Recovery Manager Virtual Appliance и импортируем туда конфиг.
Пошагово этот процесс будет таким:
1. Логинимся в Site Recovery Manager for Windows, открываем командную строку и переходим в папку %SRM_INSTALL_DIR%\bin.
2. Запускаем следующий скрипт, он потребует ввод пароля администратора:
export-srm-data.bat
3. Экспортированную папку перемещаем на виртуальный модуль SRM.
4. Выключаем машину с SRM для Windows и логинимся как root в SRM VA.
5. Если вы создавали кастомные сертификаты, то их надо положить в папку /etc/ssl/certs (это файлы с расширением .pem). Импортировать сертификаты можно через Site Recovery Manager Appliance Management Interface.
Для изменения прав доступа к сертификатам используйте команду:
chmod a+r <new-root-ca>.pem
Далее выполните:
c_rehash
6. После этого запустите импорт окружения SRM, указав папку, которую вы экспортировали из Windows-окружения:
7. Вас попросят пароль администратора vCenter Single Sign-On, root виртуального модуля, а также пароль от файла, который был задан при экспорте конфигурации.
8. На вкладке Home веб-консоли решения SRM VA выберите импортированную пару сайтов и нажмите Actions > Reconnect. Выберите первый сайт из списка, введите адрес Platform Services Controller сервера SRM на резервной площадке и введите имя пользователя и пароль.
9. Далее вас попросят выбрать сервер vCenter, который нужно настроить и его сервисы, где вы просто нажимаете Next, а потом Finish.
Недавно мы писали об обновлении продукта для комплексного управления и мониторинга виртуальной инфраструктуры VMware vRealize Operations 7.5. Ранее для этого решения был запущен маркетплейс Dashboard Sample Exchange, где пользователи сообщества vROPs могут публиковать собственные полезные дэшборды (их уже почти 130 штук), которые помогают в ежедневных операциях по управлению платформой VMware vSphere.
Совсем недавно VMware запустила еще один маркетплейс - Super Metric Sample Exchange. В инфраструктуре vROPs суперметрики (super metrics) - это те, которые образованы путем каких-либо комбинаций обычных метрик через математическую формулу (например, какой процент CPU виртуальная машина отъедает от всего хоста ESXi). Для редактирования таких метрик используется super metric editor (подробнее тут):
Чтобы начать работу с маркетплейсом, нужно перейти на сайт vRealize и нажать кнопку View Samples:
В качестве фильтра для языка программирования выберите "vRealize Ops Super Metrics":
Еще один способ найти суперметрики - это пойти на https://code.vmware.com/samples и также выбрать там в фильтре "vRealize Ops Super Metrics":
На выходе будут сэмплы кода для суперметрик (пока их совсем немного):
Можно скачать их в формате JSON, после чего импортировать в разделе vRealize Operations > Administration > Configuration > Super Metrics:
Также вы можете добавлять и собственные суперметрики на маркетплейс. Для этого на картинке выше есть пункт "Export Selected Super Metric". Метрика также будет экспортирована в формате JSON. Для ее загрузки на маркетплейс нужно использовать портал VMware {code}, где вам потребуется завести аккаунт.
Там у вас будет кнопка "Add New Sample":
После этого запустится мастер добавления нового сэмпла, где вы можете выбрать ваш JSON:
Далее нужно добавить максимально понятное и подробное описание созданной вами суперметрики:
Вообще, это очень правильный подход, когда вендор открывает возможности для создания и обмена контентом между пользователями своего продукта. Тут VMware можно похвалить.
Некоторое время назад мы писали о новых возможностях недавно вышедшего обновления платформы виртуализации VMware vSphere Platinum 6.7 Update 2. Cреди новых возможностей гипервизора там есть фича "Новые возможности планировщика CPU помогают бороться с уязвимостями типа L1TF".
Оказывается, это довольно серьезное улучшение. Надо сказать, что планировщик гипервизора side-channel aware scheduler (SCA) появился еще в прошлой версии платформы. Он закрывал уязвимость L1TF (L1 Terminal Fault) в процессорах Intel за счет того, что процессы виртуальных машин запускались только в одном треде одного физического ядра. Это позволяло нивелировать вектор атаки данного типа, но приводило к существенному снижению производительности.
Особенно это чувствовалось, когда сервер ESXi был загружен по CPU полностью, и SCA первой версии в этом случае давал до 30% хуже результат, чем без него. Если же сервер был загружен, например, на 75%, то в производительность оставалась примерно той же, но без SCA нагрузка на CPU была существенно ниже.
Итак, начиная с VMware vSphere 6.7 Update 2, появился обновленный планировщик SCAv2, который был существенно доработан по сравнению со своей предыдущей версией. Он позволяет исполнять контексты vCPU одной машины в разных гипертредах одного физического ядра процессора хоста. В этом случае атаке L1TF не подвержены взаимодействия типа VM/VM и VM/ESXi (чувствительная информация между ними не шарится в общем кэше).
В документе описано 2 типа тестов, которые проводились для планировщиков SCAv1 и SCAv2: работа хоста под максимальной нагрузкой по процессорам и под нагрузкой на уровне 75% от максимальной мощности всех CPU хоста ESXi (reduced load). В качестве базового уровня использовался планировщик без SCA (он же на картинке ниже обозначен как Default):
Если верить графикам, отражающим результаты тестирования различными бенчмарками, то планировщик SCAv2 работает существенно лучше во всех случаях, кроме очень большой (по выделенным ресурсам) виртуальной машины - Monster VM с базой Oracle и 192 vCPU, но такой кейс в реальной жизни случается весьма редко. Так что, в целом, улучшения были проведены весьма существенные (как минимум, на 11% планировщик стал более производительным по результатам тестов).
Помимо документа выше, информация об улучшениях планировщика приведена еще в KB 55806.
Это гостевой пост компании ИТ-ГРАД, предоставляющей виртуальные машины VMware в аренду из облака. Почти год прошел с момента вступления GDRP в силу. За это время регуляторы выписали приличное количество штрафов. Какие компании их уже получили и за что — обзор ситуации в нашем сегодняшнем материале. Согласно 33 статье GDPR, организации, работающие с персональными данными граждан ЕС, должны сообщать регулятору о любых утечках в течение 72 часов. ..
Многие из вас, конечно же, прекрасно знают, как работает механизм VMware HA на платформе vSphere. Но для тех из вас, кто подзабыл, Дункан написал пост о том, через какой интерфейс VMkernel идет этот трафик.
Так вот, хартбиты механизма HA пойдут через тот vmk-интерфейс, на котором в vSphere Client отмечена галочка Management, как на картинке:
Надо понимать, что этот пункт, хоть и называется Management, имеет отношение только к HA-трафику. Это означает, что если галочка не отмечена, то через этот интерфейс все равно можно будет подключиться по протоколу SSH, а также присоединить хост ESXi к серверу управления VMware vCenter, используя этот IP-адрес.
Так что Management - это не про управление, а только про HA. Это касается только обычной виртуальной инфраструктуры, а вот в кластере vSAN трафик HA идет по выделенной под vSAN сети автоматически.
Мы много пишем о решении для организации отказоустойчивых хранилищ на базе хостов ESXi - платформе VMware vSAN. Сегодня мы расскажем о дисковых группах на основе вот этого поста на блогах VMware.
Архитектура vSAN включает в себя два яруса - кэш (cache tier) и пространство постоянного хранения (capacity tier). Такая структура дает возможность достичь максимальной производительности по вводу-выводу, которая абсолютно необходима в кластере хранилищ на базе хостов.
Чтобы управлять отношениями устройств кэша и дисков хранения, решение vSAN использует дисковые группы:
У дисковых групп есть следующие особенности:
Каждый хост, который дает емкость кластеру vSAN, должен содержать как минимум одну дисковую группу.
Дисковая группа содержит как минимум одно устройство для кэша и от 1 до 7 устройств хранения.
Каждый хост ESXi в кластере vSAN может иметь до 5 групп, а каждая группа - до 7 устройств хранения. То есть на хосте может быть до 35 устройств хранения, чего вполне достаточно для подавляющего большинства вариантов использования.
Неважно, используете ли вы гибридную конфигурацию (SSD и HDD диски) или All-Flash, устройство кэширования должно быть Flash-устройством.
В гибридной конфигурации устройства кэша на 70% используются как кэш на чтение (read cache) и на 30% как кэш на запись (write buffer).
В конфигурации All-Flash 100% устройства кэша выделено под write buffer.
Write buffer и capacity tier
В принципе, всем понятно, что гибридная конфигурация хостов ESXi в кластере vSAN более дешевая (HDD стоит меньше SSD), но менее производительная, чем All-Flash. Но когда-то наступит время, и все будет All-Flash (в них, кстати, еще и нет нужды организовывать кэш на чтение, так как все читается с SSD с той же скоростью). Поэтому и выделяется 100% под write buffer.
При этом если операция чтения в All-Flash хосте находит блок в кэше - то он читается именно оттуда, чтобы не искать его в capacity tier. Максимальный размер write buffer на одной дисковой группе хоста ESXi - 600 ГБ. При этом если сам диск более 600 ГБ, то его емкость будет использоваться с пользой (см. комментарий к этой статье).
Для гибридных конфигураций 70% емкости кэша выделяется под кэш на чтение, чтобы быстро получать данные с производительных SSD-устройств, при этом vSAN старается поддерживать коэффициент попадания в кэш на чтение (cache hit rate) на уровне 90%.
Write buffer (он же write-back buffer) подтверждает запись на устройство хранения еще до актуальной записи блоков на сapacity tier. Такой подход дает время и возможность организовать операции записи наиболее эффективно и записать их на сapacity tier уже пачкой и более эффективно. Это дает существенный выигрыш в производительности.
SSD-устройства бывают разных классов, в зависимости от их выносливости (среднее число операций записи до его отказа). Все понятно, что для кэширования нужно использовать устройства высоких классов (они дорогие), так как перезапись там идет постоянно, а для хранения - можно использовать недорогие SSD-диски.
Вот сравнительная таблица этих классов (колонка TBW - это terabytes written, то есть перезапись скольких ТБ они переживут):
vSAN содержит в себе несколько алгоритмов, которые учитывают, как часто write buffer сбрасывает данные на сapacity tier. Они учитывают такие параметры, как емкость устройств, их близость к кэшу по времени записи, число входящих операций ввода-вывода, очереди, использование дискового устройства и прочее.
Организация дисковых групп
При планировании хостов ESXi в кластере vSAN можно делать на нем одну или более дисковых групп. Несколько дисковых групп использовать предпочтительнее. Давайте рассмотрим пример:
Одна дисковая группа с одним кэшем и 6 устройств хранения в ней.
Две дисковых группы с двумя устройствами кэша, в каждой по 3 устройства хранения.
Если в первом случае ломается SSD-устройство кэша, то в офлайн уходит вся дисковая группа из 6 дисков, а во втором случае поломка одного девайса приведет к выходу из строя только трех дисков.
Надо понимать, что этот кейс не имеет прямого отношения к доступности данных виртуальных машин, которая определяется политикой FTT (Failures to tolerate) - о ней мы подробно рассказывали тут, а также политиками хранилищ SPBM. Между тем, размер домена отказа (failure domain) во втором случае меньше, а значит и создает меньше рисков для функционирования кластера. Также восстановление и ребилд данных на три диска займет в два раза меньше времени, чем на шесть.
Кстати, некоторые думают, что в случае отказа дисковой группы, кластер vSAN будет ждать 60 минут (настройка Object Repair Timer) до начала восстановления данных на другие диски согласно политике FTT (ребилд), но это неверно. Если вы посмотрите наш пост тут, то поймете, что 60 минут vSAN ждет в случае APD (All Paths Down - например, временное выпадение из сети), а вот в случае PDL (Physical Device Loss) восстановление данных на другие дисковые группы начнется немедленно.
С точки зрения производительности, иметь 2 дисковые группы также выгоднее, чем одну, особенно если разнести их по разным контроллерам хранилищ (storage controllers). Ну и это более гибко в обслуживании и размещении данных на физических устройствах (например, замена диска во втором примере пройдет быстрее).
Работа операций ввода-вывода (I/O)
Как уже было сказано, в гибридной конфигурации есть кэши на чтение и на запись, а в All-Flash - только на запись:
При этом хост ESXi работает так, чтобы операции чтения с дисков попадали в кэш на чтение в 90% случаев. Остальные 10% операций чтения затрагивают HDD-диски и вытаскивают блоки с них. Но и тут применяются оптимизации - например, одновременно с вытаскиванием запрошенного блока, vSAN подтягивает в кэш еще 1 МБ данных вокруг него, чтобы последовательное чтение проходило быстрее.
Для All-Flash конфигурации кэш на чтение не нужен - все данные вытаскиваются с примерно одинаковой скоростью, зато все 100% кэша используются под write buffer, что дает преимущество в скорости обработки большого входящего потока операций ввода-вывода.
Ну и напоследок отметим, что vSAN при записи на флэш-диски распределяет операции записи равномерно между ячейками независимо от размера диска. Это позволяет диску изнашиваться равномерно и иметь бОльшую наработку на отказ.
Многие администраторы пользуются Putty для соединения с хостами VMware ESXi по протоколу SSH. Между тем, в веб-клиенте ESXi Embedded host client есть способ получить доступ к SSH-консоли прямо в браузере, реализованный на базе технологии HTML5.
Чтобы начать использовать консоль, надо сначала зайти на вкладку Services в разделе Manage и найти службу TSM-SSH:
Ее надо включить и поставить ей опцию запуска вместе с загрузкой хоста (Start and stop with host):
После этого в меню Action хостового веб-клиента надо выбрать пункт SSH Console:
Далее эта консоль загрузится в новой вкладке браузера:
Вильям Лам написал интересную заметку про обновление информации о сетевой идентификации гостевой ОС, которую выдает VMware Tools. Она показывается на вкладке Summary клиента vSphere Client или VMware Workstation:
По умолчанию эта информация обновляется каждые 30 секунд на базе данных, предоставляемых пакетом VMware Tools из гостевой ОС. Однако если вы используете технологию создания мгновенных клонов (Instant Clone) и массово создаете виртуальные машины, то вам может потребоваться увидеть эту информацию пораньше.
Здесь есть 2 пути:
1. Принудительно обновить настройки из гостевой ОС следующими командами:
Windows - C:\Program Files\VMware\VMware Tools\VMwareToolboxCmd.exe info update network
Linux - /usr/bin/vmware-toolbox-cmd info update network
Mac OS - /Library/Application\ Support/VMware\ Tools/vmware-tools-cli info update network
2. Изменить интервал, по которому обновляются данные со стороны гостевой ОС (это может создать дополнительную нагрузку из-за частых обновлений). По умолчанию это 30 секунд.
Для этого в vmx-файл виртуальной машины нужно добавить следующую строчку (но не факт, что это работает сейчас):
Это гостевой пост сервис-провайдера ИТ-ГРАД, предоставляющего услуги аренды виртуальных машин из облака. Современный человек вряд ли может представить свою жизнь без достижений цифровой индустрии. Сегодня буквально каждую минуту появляются новые сервисы, которые меняют жизнь людей и даже целых компаний. Как известно, лучшие продукты создаются в момент «той самой встречи» клиента и исполнителя...
Недавно компания VMware выпустила новую версию платформы виртуализации VMware vSphere 6.7 Update 2. Довольно много новых возможностей появилось в функциональности управляющего сервера VMware vCenter 6.7 Update 2. Давайте посмотрим, что именно с картинками и анимированными гифками:
С момента последних обновлений, инфраструктура отказоустойчивых хранилищ VMware vSAN теперь нативно поддерживает кластеры Microsoft SQL Server. На данный момент эта поддержка реализована только в облачной IaaS-инфраструктуре VMware Cloud on AWS версии 1.6, но скоро она появится и в онпремизной инфраструктуре VMware vSphere.
Суть поддержки заключается в том, что теперь облачный vSAN работает с командами SCSI-3 Persistent Reservation (SCSI3-PR), которые обеспечивают доступ к общим дискам на физическом уровне абстракции.
Таким образом, пользователи SQL Server не нуждаются в перепроектировании их Availability Groups, а могут просто перенести свои кластеры БД в облако.
Чтобы построить SQL Server Cluster нужно расшарить общий диск между его узлам таким образом, чтобы каждый из узлов мог управлять устройством на физическом уровне. Этот подход описан в документе о SCSI-3 Persistent Reservation (SCSI3-PR).
Для включения поддержки SCSI3-PR для выбранного виртуального диска машины нужно:
Выставить режим диска в Independent – Persistent.
Виртуальный диск должен быть привязан к SCSI-контроллеру, для которого параметр SCSI Bus Sharing выставлен в Physical.
Для управления устройством Shared Disk и его Persistent Reservations имеет смысл создать отдельную политику хранилищ в целях лучшей управляемости.
На данный момент для такой инфраструктуры поддерживаются кластеры SQL Server Clusters 2012 и более свежие, работающие на платформе Windows Server 2012 и более свежей. С точки зрения лимитов, поддерживается до 8 узлов SQL Server на кластер и до 64 устройств на узел.
Когда вы используете общий диск, поскольку узлы должны иметь к нему прямой доступ как бы на физическом уровне, вы не сможете использовать такие технологии, как vMotion, снапшоты, клонирование ВМ и прочие.
Вот как создается общий диск с описанными настройками:
Далее такой диск нужно подключить ко всем узлам SQL Server кластера:
Надо понимать, что важно не только настроить серверы SQL, но и саму среду vSAN, в зависимости от характера ваших нагрузок (какие-то базы данных требуют высокой производительности, какие-то большой дисковой емкости и т.п.).
Давайте посмотрим, что это за базовые рекомендации:
1. Общие рекомендации.
Включайте дополнительный хост ESXi к результатам сайзинга по схеме n+1 на случай отказа диска, дисковой группы или всего хоста в целом.
Имейте хороший запас по пропускной способности сети для трафика vSAN, рекомендуется использовать 10G сеть с выделенной полосой для трафика синхронизации. Для All-Flash vSAN это обязательное требование. И не забывайте о резервировании каналов.
Имейте как минимум 2 дисковых группы на хост - это может увеличить полосу пропускания во многих случаях, а также обеспечивает лучшую отказоустойчивость.
Службы vSAN на уровне кластера:
vSAN Performance service (включен по умолчанию в vSAN 6.7) предоставляет метрики производительности в сторонние системы, такие как vRealize Operations, что позволяет эффективно мониторить и решать проблемы.
Вы можете использовать шифрование data at rest (FIPS 140-2 compliant), это не влияет на производительность по IOPS, но дает нагрузку на CPU, поэтому лучше использовать процессоры с поддержкой возможности AES-NI. Для end-to-end шифрования используйте туннели IPSEC. Если нужно зашифровать только отдельную БД, используйте SQL Server native encryption.
vSAN 6.7 поддерживает SCSI-3 persistent reservations для общих дисков при использовании SQL Server FCI. Для этого на уровне кластера надо включить службу vSAN iSCSI Target.
Настройте политики SPBM для данных SQL Server:
Политика Failures to tolerate (FTT): убедитесь, что выставлено как минимум значение 1, не используйте опцию "No data redundancy".
Политика Number of disk stripes per object: используйте значение по умолчанию (1) и подумайте о разделении данных между разными дисками VMDK, привязанными к разным контроллерам vSCSI.
Политика IOPS limit per object: vSAN 6.2 и более поздние версии имеют возможности QoS, которые могут ограничить IOPS, потребляемые дисковым объектам. Не используйте эту политику для задач, требовательных к нагрузкам. Эта фича используется, как правило, для операций резервного копирования и восстановления, чтобы предотвратить забитие полосы пропускания этими задачами.
2. Рекомендации для нагрузок Tier-1 (высоконагруженные OLTP-базы).
Как правило, такие нагрузки по вводу-выводу включают запросы с множественным позиционированием точек записи в базе данных, активность по сбросу грязных страниц кэша на диск, а также запись транзакционного лога. Размер операции ввода-вывода небольшой - в диапазоне 8K - 64K. Можно использовать бенчмарки TPC-E для воспроизведения паттернов OLTP-подобных нагрузок.
Рассмотрите возможность использования All-flash vSAN.
Используйте как минимум диски SAS SSD (а не SATA SSD) - у них больше глубина очереди. Также подумайте о технологии NVMe.
Отключайте дедупликацию и компрессию данных, которые включены в vSAN по умолчанию. Лучше использовать компрессию таблиц на уровне базы данных.
Для object space reservation установите "Thick provisioning" для всех VMDK с данными SQL Server и логами. Это позволит не натолкнуться на проблему нехватки места при использовании тонких дисков. Также в опциях SQL Server лучше установить настройку Perform maintenance tasks, чтобы инициализировать файлы с данными сразу же. Также выделите сразу место под лог БД, чтобы не натолкнуться на недостаток места в гостевой ОС, либо установите настройку его роста в ГБ, а не в процентах.
Не используйте IOPS limit for object.
Используйте RAID-1 mirroring и как минимум FTT=1 для для VMDK-дисков с данными и логом.
Если вы используете дополнительные методы отказоустойчивости, такие как Always On Availability Groups, то вам может потребоваться увеличить FTT. Делайте это не только с точки зрения доступности, но и с точки зрения производительности. Вы можете комбинировать отказоустойчивость Availability Groups на уровне приложения с отказоустойчивостью на уровне дисковой подсистемы.
Если вам требуется доступность SQL между площадками, можно использовать архитектуру растянутых кластеров (vSAN Stretched Cluster).
Подумайте о коммутаторах для трафика vSAN. Оптимально использовать кластеры all-NVMe vSAN, тогда операции ввода вывода будут быстро передаваться между дисковыми устройствами без участия физических контроллеров. Также лучше использовать 10G-коммутаторы Enterprise-уровня с большими размерами буфера (non-shared), чтобы обеспечить работу с плотным потоком ввода-вывода.
2. Рекомендации для нагрузок Tier-2 (высоконагруженные OLTP-базы).
Это нагрузки от которых не требуется экстремальной производительности, поэтому они должны быть эффективными с точки зрения стоимости. Тут актуальны следующие рекомендации:
Для гибридной среды vSAN (микс HDD+SSD) рекомендуется следующее:
Используйте несколько дисковых групп для увеличения пропускной способности.
Имейте как минимум 10% от емкости данных для пространства кэширования на SSD. Также рекомендуется использовать объем SSD-емкости как минимум в два раза больший, чем рабочий набор данных (working data set).
Используйте, по возможности, устройства SAS SSD вместо SATA SSD.
Если вы используете конфигурацию All-flash vSAN, то:
Используйте дедупликацию и компрессию, если у приложений нет высоких требований по операциям записи.
Если хотите экономить место и не требуется большой производительности, то используйте конфигурацию RAID 5/6 erasure coding, но для транзакционных логов используйте VMDK-диски, размещенные на RAID 1.
Для object space reservation установите "Thick provisioning" для всех VMDK с данными SQL Server и логами.
3. Нагрузки типа Data Warehouse и серверов отчетов (Reporting).
Для таких нагрузок характерен большой размер операции ввода-вывода, так как происходит запрос большого объема данных из БД. Критичной метрикой здесь является не IOPS, а пропускная способность (MB/s). Для генерации таких нагрузок могут быть использованы бенчмарки TPC-H.
Тут приводятся следующие рекомендации:
Для конфигураций All-flash лучше использовать NVMe SSD для хранилищ данных, это даст хорошую производительность по большим операциям чтения.
Для конфигураций All-flash в целях экономии места используйте RAID 5/6 для VMDK с данными БД.
Преаллоцируйте пространство для логов SQL Server, чтобы не натолкнуться на проблему нехватки места.
Не используйте IOPS limit for object, это может ограничить полосу пропускания.
Лучше использовать 10G-коммутаторы Enterprise-уровня с большими размерами буфера (non-shared), чтобы обеспечить работу с плотным потоком ввода-вывода и выдать хорошую пропускную способность.
Недавно компания VMware провела серию релизов своих продуктов, главным из которых было обновление платформы виртуализации VMware vSphere 6.7 Update 2. Но помимо этого, VMware обновила еще 3 своих решения из линейки по оптимизации операций датацентров:
vRealize Automation 7.6
vRealize Lifecycle Manager 2.1
vRealize Network Insight 4.1
Давайте посмотрим, что в этих продуктах появилось нового:
1. vRealize Automation 7.6.
В этом релизе VMware сделала упор на интеграцию архитектуры SDDC с платформой Cloud Management Platform (CMP):
Появилась интеграция с решением NSX - пользователи могут теперь настроить одновременно NSX-T и NSX-V для различных кластеров сети на одном сервере vCenter. Также будет добавлена поддержка on-demand private networking.
Улучшилось управление рабочими процессами в vRealize Orchestrator - теперь появились такие функции в них, как Design, Run, Content Management и Troubleshooting. Также будет добавлена поддержка нескольких клиентов (multi-tenancy) для пользователей, которые хотят позволить использовать vRO в изолированных окружениях.
Скачать vRealize Automation 7.6 скоро можно будет по этой ссылке.
2. vRealize Lifecycle Manager 2.1.
В этом обновлении было уделено внимание функциям жизненного цикла продуктов в гибридном облаке, особенно в составе пакета решений vRealize Suite. В vRealize Suite Lifecycle Manager появились следующие новые возможности:
Установка шаблонов VMware Validated Designs
Более гранулярные настройки развертывания
Возможность Multi-content capture
Управление жизненным циклом продукта VMware Identity Manager.
Улучшения пользовательского интерфейса.
Скачать vRealize Lifecycle Manager 2.1 пока нельзя, скоро он будет доступен.
3. vRealize Network Insight 4.1.
Здесь появились следующие новые возможности:
Планирование и решение проблем на базе приложений. vRNI 4.1 берет определения приложений из ServiceNow (либо их может задать пользователь с помощью регулярных выражений). Далее эти приложения появляются на соответствующих дэшбордах мониторинга.
Возможность мониторинга окружений VMware Enterprise PKS и Kubernetes. В решение vRNI были добавлены функции для управления безопасностью и конфигурации сетевого взаимодействия для приложений на PKS и Kubernetes.
Улучшенная видимость происходящих событий в датацентре с точки зрения сети. Теперь на таймлайн изменения конфигураций безопасности и сетевых настроек, включая окружения NSX, были добавлены и метки пользователей (то есть не только, что изменено, но и кто изменил). Также была добавлена поддержка балансировщиков F5 и отслеживание их физического пути трафика.
Скачать vRealize Network Insight 4.1 скоро можно будет по этой ссылке.
Сайт частных объявлений «Авито» не нуждается в представлении. Сегодня сложно найти человека, который бы ни разу не воспользовался этой популярной площадкой, чтобы купить какую-то вещь, продать или приобрести автомобиль, снять квартиру, найти работу – список можно продолжать бесконечно. На протяжении 11 лет компания растет и развивается, помогая миллионам людей...
Это решение является продолжением уже объявленной VMware в июле прошлого года интеграции с облаком Google средствами плагина Google Cloud plug-in for VMware vRealize Orchestrator (vRO). vRO представляет собой встроенный движок vRealize Automation для оркестрации рабочих процессов в облаке, соответственно, плагин для vRealize Automation позволяет настроить управление рабочими процессами в облаке Google Cloud в дополнение к уже имеющимся процедурам автоматизации в онпремизной инфраструктуре.
С момента превью плагина для vRO команда Google Cloud добавила следующие новые возможности и улучшения в плагин:
Поддержка новых сервисов: Google Kubernetes Engine, Cloud SQL, Cloud Spanner, Cloud Pub/Sub, Cloud Key Management Service, Cloud Filestore (Beta), IAM Service Accounts.
Улучшенные рабочие процессы для работы с облачными ВМ: установка пароля Windows, исполнение SSH-команд, запрос вывода последовательного порта, восстановление из снапшота и другое.
Также для функций плагина к vRO были сделаны следующие улучшения:
Поддержка настройки http-прокси при создании соединения.
Рабочие процессы для упрощения импорта ресурсов XaaS Custom Resources и описаний архитектуры Blueprints в инфраструктуру vRealize Automation.
Дефолтные опции для рабочего процесса по созданию ВМ.
Просмотр оценочной стоимости платы за ВМ в месяц.
Рабочий процесс для сбора ошибок и написания письма в поддержку.
Улучшенная обработка синхронизации соединений для кластеров vRO.
Премиальная поддержка для функций Health Check.
Доработанная пользовательская документация и шаблоны сценариев vRO.
Обзор функций плагина Google Cloud Plug-in for VMware vRealize Automation представлен в видео ниже:
Давайте посмотрим, что представляет собой Veeam B&R Community Edition. Во-первых, обратите внимание, что в названии появилось слово Replication - значит пользователям теперь доступно не только резервное копирование виртуальных машин, но и их репликация. Мало того, Community Edition - это полноценное издание Veeam B&R Standard, но ограниченное возможностью резервного копирования 10 виртуальных машин (либо физических серверов или рабочих станций) в рамках этого издания. И его можно использовать в производственной среде.
В бесплатной версии было всего 13 базовых возможностей - пользователи не могли запускать запланированные задачи, использовать репликацию, а резервное копирование ограничивалось только созданием резервных копий.
Теперь все возможности коммерческого издания Standard Edition доступны бесплатно (см. таблицу сравнения возможностей изданий). Можно использовать репликацию, планировать задачи из GUI, а не PowerShell и многое другое.
Вот так удобно и бесплатно можно настроить задачу резервного копирования ВМ:
Также бесплатно можно использовать и репликацию, в том числе и на удаленную площадку, где реплики виртуальных машин напрямую подвязываются к гипервизору, а значит готовы к запуску администратором в любой момент. Помимо этого, в точке назначения репликации или резервных копий можно настроить дополнительное откидывание резервных копий на стороннюю площадку в целях защиты на уровне датацентра (правило 3-2-1).
В бесплатное издание включена и функция Application awareness - то есть ваши резервные копии будут консистентными на уровне приложений. Ну а решения Veeam Explorers для приложений Microsoft (Active Directory, Exchange, SQL Server и SharePoint) позволят восстанавливать отдельные объекты из резервных копий напрямую в приложения (например, почтовый ящик Exchange).
С помощью Community Edition вы сможете развернуть Veeam Agents for Microsoft Windows и Linux на серверах и рабочих станциях в целях бэкапа физических систем (правда из 10 разрешенных систем рабочие станции будут потреблять 1 лицензию, а серверы - 3).
Но самое главное - это то, что после исчерпания лимита в 10 виртуальных машин, остальные машины можно будет резервировать с помощью технологии VeeamZIP (то есть, Community Edition не стал хуже с точки зрения ограничений). Это позволит вам создать полную резервную копию виртуальной машины в сжатом формате в виде VBK-файла (инкрементальные копии и физические машины в этом случае не поддерживаются).
Также решения по бэкапу физических систем Veeam Agent for Microsoft Windows и Veeam Agent for Linux можно использовать как отдельные от Community Edition бесплатные продукты. В этом случае у вас просто не будет централизованной консоли, но для нескольких серверов она и не нужна.
Решение для мониторинга, отчетности и решения проблем также получило бесплатную версию - Veeam ONE Community Edition.
Это решение является продолжателем бесплатного продукта Veeam ONE Free Edition, но в нем добавилось несколько существенных возможностей. Главное улучшение тут - это возможность мониторить инфраструктуру Veeam Backup & Replication infrastructure, а также машины с установленными Veeam Agents.
Решение Veeam ONE CE позволит вам получать отчетность об инфраструктуре резервного копирования, включая такие возможности, как отчет по защищенным и незащищенным ВМ (например, после развертывания новой ВМ вы забыли настроить для нее бэкап):
Вот их физические места размещения:
Как и прошлая бесплатная версия Veeam ONE, издание Community Edition может обеспечивать мониторинг любого числа виртуальных машин. Но теперь возможности средства были расширены - стали доступны действия Remediate Actions, позволяющие вам, например, удалить изолированный снапшот или настроить резервное копирование для ВМ:
С помощью бесплатной версии можно организовать резервное копирование данных в сервисах Exchange Online и OneDrive for Business для 10 пользователей, а также 1 ТБ данных SharePoint Online.
Скачать бесплатный Veeam Backup & Replication Community Edition можно по этой ссылке. Остальные продукты вы также без труда найдете на сайте Veeam.
Таги: Veeam, Backup, Free, Replication, Бесплатно, Update, ONE, Community
Интересную новость прислал Андрей Коновалов - в российском офисе VMware коллеги запустили новую инициативу на российском канале, где публикуются короткие (до 10 минут) обзорные и обучающие видео о продуктах и технологиях VMware.
Проект называется "VMware по средам". Сейчас ребята записывают серию роликов о VMware PKS, а также планируют публиковать ролики по различным интересным темам - VMware Skyline, Workspace ONE и другим. Таким образом, вместо привычного маркетингового потока сознания, на канале VMware Russia имеют шанс быть освещенными интересные технические темы.
Сейчас пока на канале 3 плейлиста, но каждую неделю будет появляться что-то новое:
Мировые дата-центры ежегодно расходуют приблизительно 200 тераватт-часов электроэнергии. По некоторым прогнозам, этот показатель может увеличиться в 15 раз к 2030 году. Поэтому регулярно предпринимаются попытки повысить эффективность работы вычислительной инфраструктуры и снизить потребление энергии в ЦОД. Подробнее об этом — в нашем сегодняшнем материале.
DCIM-решения
По данным ряда исследований, примерно треть серверов в дата-центрах, работающих по всему миру, простаивает. Так происходит, потому что организации приобретают больше оборудования в машинные залы, чем им требуется для обслуживания клиентов. Эти ресурсы оказываются не задействованы полностью, но электроэнергия для их питания и охлаждения расходуется.
Один из способов борьбы с такими «зомби-серверами» — использовать специальное ПО для управления инфраструктурой. Это системы Data Center Infrastructure Management (DCIM). Они мониторят энергопотребление серверов, хранилищ, маршрутизаторов и систем кондиционирования. DCIM-решения автоматически распределяют нагрузку между серверами (при необходимости самостоятельно отключают незадействованные устройства) и дают операторам ЦОД рекомендации по настройке скорости работы вентиляторов холодильных установок.
DCIM-решения могут помочь сократить энергопотребление в дата-центре на 9-10%. Например, система способна обнаружить, что вентиляторы кондиционирующей установки вращаются слишком быстро, а серверам в машинном зале не требуется настолько сильный поток холодного воздуха. С помощью такой аналитики и «настройки» дата-центры могут экономить десятки и сотни кВт энергии ежегодно.
Виртуализация
Консолидация приложений на меньшем числе физических машин сокращает затраты на обслуживание железа, охлаждение и электричество. По данным VMware, переход на виртуальные серверы в некоторых случаях приводит к снижению энергопотребления на 80%. Несколько лет назад компании NRDC и Anthesis провели исследование и установили, что замена 3 тыс. серверов на 150 виртуальных машин может снизить ежегодные затраты на электричество на 2 млн долларов.
Многие из вас знают, что у компании StarWind есть продукт Virtual SAN для построения программных отказоустойчивых хранилищ, являющийся на сегодняшний день одним из лидеров отрасли. Но самое интересное, что у StarWind есть и программно-аппаратный комплекс HyperConverged Appliance (HCA), на базе которого можно строить недорогую инфраструктуру виртуализации и хранения для небольших компаний (а также для сценариев ROBO - remote or brunch offices, то есть филиалов).
На днях компания VMware выпустила обновление решения для виртуализации настольных ПК предприятия VMware Horizon 7.8. Одновременно с этим релизом было выпущено и решение VMware Unified Access Gateway (UAG) 3.5, представляющее собой шлюз для доступа к инфраструктуре Workspace ONE и Horizon.
Шлюз используется для безопасного доступа внешних авторизованных пользователей ко внутренним ресурсам рабочей области Workspace ONE, а также виртуальным десктопам и приложениям Horizon. Напомним, что о версии UAG 3.4 в начале этого года мы писали вот тут.
Давайте посмотрим, что нового появилось в VMware UAG версии 3.5:
Поддержка Unified Access Gateway Powershell для облачных инфраструктур Microsoft Azure и Amazon AWS. Подробнее можно узнать вот тут и из видео выше.
Поддержка замены сертификатов SSL для PSG (PCoIP Secure Gateway) .
Расширенный мониторинг внешнего балансировщика UAG за счет использования HTTP/HTTPS GET или файла favicon.ico теперь охватывает все edge-сервисы.
Теперь не требуется отдельно указывать лицензию UAG (Standard, Advanced или Enterprise) для Workspace ONE и Horizon - все возможности UAG доступны для данных изданий.
Скачать VMware Unified Access Gateway 3.5 можно по этой ссылке. Инструкция по развертыванию решения в облачной среде доступна тут.
Вы все, конечно же, в курсе, что графические карты уже давно используются не только для просчета графики в играх и требовательных к графике приложениях, но и для вычислительных задач. Сегодня процессоры GPGPU (General Purpose GPU) используются в ИТ-инфраструктурах High Performance Computing (HPC) для решения сложных задач, в том числе машинного обучения (Machine Learning, ML), глубокого обучения (Deep Learning, DL) и искусственного интеллекта (Artificial Intelligence, AI).
Эти задачи, зачастую, хорошо параллелятся, а архитектура GPU (по сравнению с CPU) лучше приспособлена именно для такого рода задач, так как в графических платах сейчас значительно больше вычислительных ядер:
Кроме того, архитектура CPU больше заточена на решение последовательных задач, где параметры рассчитываются друг за другом, а архитектура GPU позволяет независимо просчитывать компоненты задачи на разных процессорных кластерах, после чего сводить итоговый результат.
Вот так, если обобщить, выглядит архитектура CPU - два уровня кэша на базе каждого из ядер и общий L3-кэш для шаринга данных между ядрами:
Число ядер на CPU может достигать 32, каждое из которых работает на частоте до 3.8 ГГц в турбо-режиме.
Графическая карта имеет, как правило, только один уровень кэша на уровне вычислительных модулей, объединенных в мультипроцессоры (Streaming Multiprocessors, SM), которые, в свою очередь, объединяются в процессорные кластеры:
Также в видеокарте есть L2-кэш, который является общим для всех процессорных кластеров. Набор процессорных кластеров, имеющих собственный контроллер памяти и общую память GDDR-5 называется устройство GPU (GPU Device). Как видно, архитектура GPU имеет меньше уровней кэша (вместо транзисторов кэша на плату помещаются вычислительные блоки) и более толерантна к задержкам получения данных из памяти, что делает ее более пригодной к параллельным вычислениям, где задача локализуется на уровне отдельного вычислительного модуля.
Например, если говорить об устройствах NVIDIA, то модель Tesla V100 содержит 80 мультипроцессоров (SM), каждый из которых содержит 64 ядра, что дает в сумме 5120 ядер! Очевидно, что именно такие штуки надо использовать для задач ML/DL/AI.
Платформа VMware vSphere поддерживает технологию vGPU для реализации такого рода задач и возможности использования виртуальными машинами выделенных ВМ модулей GPU. В первую очередь, это все работает для карточек NVIDIA GRID, но и для AMD VMware также сделала поддержку, начиная с Horizon 7 (хотя и далеко не в полном объеме).
Еще одна интересная архитектура для решения подобных задач - это технология FlexDirect от компании BitFusion. Она позволяет организовать вычисления таким образом, что хосты ESXi с модулями GPU выполняют виртуальные машины, а их ВМ-компаньоны на обычных серверах ESXi исполняют непосредственно приложения. При CUDA-инструкции от клиентских ВМ передаются серверным по сети:
Обмен данными может быть организован как по TCP/IP, так и через интерфейс RDMA, который может быть организован как подключение Infiniband или RoCE (RDMA over Converged Ethernet). О результатах тестирования такого сетевого взаимодействия вы можете почитать тут.
При этом FlexDirect позволяет использовать ресурсы GPU как только одной машине, так и разделять его между несколькими. При этом администратор может выбрать, какой объем Shares выделить каждой из машин, то есть можно приоритизировать использование ресурсов GPU.
Такая архитектура позволяет разделить виртуальную инфраструктуру VMware vSphere на ярусы: кластер GPU, обсчитывающий данные, и кластер исполнения приложений пользователей, которые вводят данные в них и запускают расчеты. Это дает гибкость в обслуживании, управлении и масштабировании.
На днях компания VMware объявила об очередном релизе платформы для создания инфраструктуры виртуальных ПК предприятия - VMware Horizon 7.8.
Давайте посмотрим, что нового в Horizon 7.8 и его компонентах:
1. Новые функции Connection Server.
Консоль Horizon (веб-интерфейс на базе HTML5)
Можно использовать Horizon Console для инициализации архитектуры Cloud Pod, присоединять узлы в рамках функционала федерации, создавать и управлять глобальными правами доступа, сайтами и домашними сайтами.
Можно пересоздавать и восстанавливать связанные клоны с постоянными (persistent) дисками.
Для операций со связанными клонами доступна отмена начавшейся задачи (Cancel task).
Можно создавать автоматические фермы связанных клонов (automated linked-clone farms).
Можно настраивать Horizon Connection Server и аутентификацию пользователей. Также доступна настройка ролевой модели доступа, политик и клиентских сессий.
Можно настраивать ярлыки для опубликованных пулов десктопов и приложений.
Архитектура Cloud Pod
Лимиты топологии архитектуры Horizon 7.8 теперь следующие:
250 000 сессий всего
50 объектов pods
10 000 сессий на pod
15 сайтов
7 экземпляров Connection Server на один pod
Всего 350 экземпляров Connection Server
Опубликованные десктопы и приложения
Для опубликованных десктопов и приложений на хостах RDS теперь поддерживаются объекты Organizational Units (OU).
На RDS-хостах теперь можно использовать статистики CPU, памяти, диска и числа сессий для определения политики балансировки нагрузки для опубликованных десктопов и приложений.
Можно повторно использовать существующие учетные записи компьютеров для развертывания новых пулов мгновенных клонов в домене.
Функции доступа True SSO
После того, как пользователи используют True SSO для логина в десктопы, они могут разлочить десктоп путем повторной аутентификации на портале Workspace ONE с теми же кредами True SSO.
Изменения механизма безопасного доступа к домену
Несколько поменялась механика логина через Horizon Client (подробнее - тут). Сначала пользователь вводит свой полный логин с доменом в текстовое поле (domain\username или username@domain.com), после чего ему показывают селект с выбором домена, либо его может вообще не быть, либо там будет значение *DefaultDomain*. Подробнее об этом написано в настройках Send domain list и Hide domain list в документе VMware Horizon 7.8 Security.
Можно заставить пользователя ввести учетные данные, даже если у него стоит настройка Logon as current user. Более подробно об этом рассказано в документе Horizon 7.8 Administration, где описана настройка Accept logon as current user.
Для более детальной информации о доменных настройках для клиентов Horizon Clients можно обратиться к KB 67424.
Улучшения безопасности аутентификации пользователей, где исправлена проблема CVE-2019-5513, описанная в руководстве VMSA-2019-0003.
2. Новый Horizon Agent.
Теперь можно использовать регулярные выражения при задании правил URL Content Redirection. Смотрите раздел "Regular Expression Rules That URL Content Redirection Supports" в документе Configuring Remote Desktop Features in Horizon 7.
Аутентификация с помощью смарт-карт теперь поддерживается с приложениями UWP, такими как Microsoft Edge, в удаленных десктопах.
Плагин Helpdesk теперь есть в составе установщика Horizon Agent.
Функция VMware Integrated Printing содержит опцию finishing (параметры staple и booklet) для специализированных перенаправляемых принтеров.
Когда администратор включает режим read-only для подключения других пользователей к сессии, основной пользователь может подключить несколько пользователей в режиме просмотра сессии. При этом только основной пользователь может взаимодействовать с элементами управления, а остальные просто смотрят.
3. Новый Horizon Agent for Linux.
Улучшенная поддержка дистрибутивов Linux - теперь добавлены RHEL 7.6 и CentOS 7.6.
Начиная с Horizon HTML Access версии 5.0, функции нескольких мониторов поддерживаются для десктопов Linux.
Horizon 7.8 поддерживает перенаправление смарт-карт для Linux-десктопов с версией RHEL 7.1 и позднее. Эта возможность позволяет авторизоваться пользователю через смарт-карту, подключенную к клиентской системе.
Расширенная поддержка True SSO для Ubuntu 16.04 или 18.04, SLED 12.x SP3, а также SLES 12.x SP3.
Когда администратор включает режим read-only для подключения других пользователей к сессии, основной пользователь может подключить несколько пользователей в режиме просмотра сессии. При этом только основной пользователь может взаимодействовать с элементами управления, а остальные просто смотрят.
Групповая политика URL Content Redirection содержит теперь настройку Url Redirection IP Rules Enabled, которая позволяет настроить IP-адреса и их фильтрацию.
Новый файл шаблона групповой политики VMware Horizon Client Drive Redirection ADMX (vdm_agent_cdr.admx) содержит настройки перенаправления клиентских дисков. Он позволяет настроить букву подключаемого устройства и таймаут для инициализации в Windows Explorer.
Настройка групповой политики Session Collaboration позволяет передать контроль ввода участникам совместной сессии.
Настройки групповой политики VMware Integrated Printing позволяют задать фильтр при перенаправлении клиентского принтера и настроить параметры предварительного просмотра.
5. Horizon 7 Cloud Connector.
Для виртуального модуля Horizon Cloud Connector можно настроить политику устаревания пароля пользователя root.
6. Поддержка VMware Cloud on AWS.
Пул мгновенных клонов поддерживает сетевые сегменты NSX-T.
Полный список возможностей Horizon 7, поддерживаемых в VMware Cloud on AWS, приведен в KB 58539.
7. Обновленная версия User Environment Manager 7.9.0.
Возможности Application blocking и privilege elevation поддерживаются на рабочих станциях, коьторые используют утилиту User Environment Manager SyncTool.
Полный список новых возможностей VMware User Environment Manager 7.9 приведен вот тут.
Мы часто писали о решении VMware vRealize Network Insight (vRNI), которое позволяет системным и сетевым администраторам, а также администраторам информационной безопасности, смотреть за сетевым взаимодействием в рамках виртуальной инфраструктуры и предпринимать действия по ее защите.
Также с помощью vRNI можно найти 3 типа отклонений для виртуальных машин, работающих непрерывно в виртуальной инфраструктуре:
Outliers - девианты по трафику в рамках группы ВМ по сравнению с остальными членами группы.
Thresholds - машины, которые превысили пороговые значения по трафику или сбросу пакетов.
Top Talkers - самые потребляющие сетевые ресурсы машины в каком-то аспекте мониторинга.
Сегодня мы рассмотрим ситуацию, когда с помощью vRNI можно обнаружить девиантов по трафику (Outliers) в группе виртуальных машин, выполняющих одинаковую функцию. К таким машинам можно отнести, например, веб-серверы, размещенные за балансировщиком и принимающие на себя в среднем одинаковую нагрузку.
Если один из серверов начинает существенно отклоняться (например, отдавать трафика намного больше чем остальные), то это может говорить либо об ошибке в конфигурации балансировщика, либо о каких-то проблемах на этом веб-сервере. Также к таким сервисам можно отнести серверы DNS, Active Directory, кластеры серверов SQL и другие масштабируемые сервисы.
Помимо получения нотификаций о девиантах по SNMP или email, их поведение можно визуализовать на графиках. Это позволит вам сразу понять, какой из серверов ведет себя не как остальные, чтобы сразу приступить в выяснению источника проблемы:
Здесь мы видим, что виртуальная машина cmbu-sc2dc-01 на порту 53 имеет большой поток трафика, гораздо больше, чем остальные, поэтому и попала в категорию "Outliers" на панели справа.
Для мониторинга такого поведения вы можете выбрать один или несколько портов, а также направление трафика (входящий/исходящий), так как есть сервисы, которые в основном принимают данные (например, обработчики), а есть, которые преимущественно отдают (веб-серверы, DNS и т.п.).
Чтобы создать группу Outliers для мониторинга, нужно в консоли vRNI пойти в меню Analytics и там открыть раздел Outliers:
Далее вы увидите список всех настроенных групп Outliers. Там вы увидите, сколько девиантов в каждой группе было обнаружено, какие связанные с ними события произошли, а также информацию о группе (сколько ВМ, их IP и т.п.), также вы увидите, когда были обнаружены эти отклонения.
Для создания новой группы, в правом верхнем углу надо нажать ADD и установить все необходимые настройки:
Здесь они означают следующее:
Имя группы.
Масштаб наблюдения (application tier, NSX Security tag и т.п.).
Для уровня приложения (application tier) нужно выбрать само приложение и его ярус (tier).
Метрика - total traffic (MB, GB и т.п.), число пакетов или сессий, либо объем трафика в секунду.
Направление обнаруживаемого трафика (incoming, outgoing, both).
Направление трафика в датацентре: north-south (интернет-трафик), east-west (внутренний трафик датацентра), либо оба направления.
Порты назначения - можно мониторить все используемые порты, либо выбранные. Но пока есть лимит 20 портов, если он будет превышен, то их надо будет вводить вручную.
Когда все установлено, vRNI сгенерирует превьюшку результатов на графике, включающем в себя настроенные сетевые потоки.
Если превью вас устроило, то просто нажимаете Submit и добавляете новую группу в систему мониторинга.
Как только обнаруживается Outlier, для него создается открытое событие (Event), оно продолжает висеть в открытых, пока отклонение продолжает существовать. Как только все возвращается в норму, событие закрывается, однако остается в архиве, чтобы администратор знал о происходящем.
В общем, vRNI, хотя бы только с этой стороны - полезная штука!
Очень дельную статью написал Вильям Лам, касающуюся настройки алармов для различных событий в инфраструктуре VMware vSphere. Иногда системному администратору требуется настроить мониторинг каких-либо действий пользователей, которые вызывают генерацию событий в консоли vSphere Client.
Например, вы хотите получать аларм, когда пользователь создает папку (Folder) для виртуального окружения через vSphere Client. Для начала нам понадобится информация, которую мы будем использовать в описании аларма. Для этого мы делаем действие, генерирующее событие, вручную (в данном случае, создаем папку), а после этого идем в раздел Monitor->Tasks, где смотрим описание задачи и связанного с ней события:
Главное здесь для нас - это лейбл "Task: Create folder", по которому мы найдем этот тип событий через PowerCLI, а точнее его Description Id. Открываем консоль PowerCLI и выполняем там вот такую команду, указав лейбл нашего события, найденный в консоли vSphere Client:
Результатом будет Description Id нашего события - это Folder.createFolder:
Далее можно создавать аларм, зная Description Id события. Выбираем тип условия Task event, а также описание в виде Description Id, тип условия end with и сам этот ID - Folder.createFolder:
После создания такого аларма, при каждом создании папки он будет срабатывать, что можно увидеть в разделе Triggered Alarms:
Таким же образом вы можете настроить алармы и для любых других событий, происходящих в инфраструктуре VMware vSphere.
Недавно VMware объявила о большом обновлении своего решения для сетевой виртуализации и агрегации виртуальных сетей датацентров, работающих на базе гибридной среды гипервизоров и контейнеров приложений Kubernetes/Docker - VMware NSX-T 2.4 (кстати, вот видео об отличии этого решения от NSX-V для vSphere).
Это уже пятое обновление данной платформы, при этом для компании это большой анонс, так как продукт существенно расширяет возможности по обеспечению сетевой управляемости гибридных (облачных и онпремизных) инфраструктур и обеспечивает полную поддержку протокола IPv6.
Напомним, что прошлая версия NSX-T 2.3 вышла в сентябре прошлого года. С тех пор многое изменилось, поэтому давайте посмотрим, что нового (из основного) появилось в NSX-T 2.4:
1. Упрощение установки, конфигурации и ежедневного оперирования.
В этой области появилось 3 основных улучшения:
Новый виртуальный модуль NSX manager appliance, который поддерживает кластерную конфигурацию до 3 узлов, каждый из которых выполняет функции обеспечения политик и контроля сетевой инфраструктуры. Это дает высокий уровень отказоустойчивости. Также установщик имеет модули Ansible для упрощения процедуры автоматизированной установки и настройки рабочих процессов.
Радикально упрощенный пользовательский интерфейс, где еще более продуманы значения по умолчанию и уменьшено число экранов и кликов для ежедневных операций.
Контекстный поиск с мощными функциями по автозаполнению, что упрощает решение проблем из консоли NSX-T.
Вот в качестве примера окно обзора конфигураций - видно, насколько все стало более наглядным и удобным для восприятия:
2. Декларативная модель политик.
Эта новая модель распространения конфигураций и настроек безопасности позволяет пользователю определить, что необходимо для обеспечения связности и безопасности, вместо того, чтобы задавать, как нужно пройти по шагам процесс настройки.
Вместо детализированных вызовов API, которые должны быть выполнены в строго определенной последовательности, NSX Manager теперь принимает на вход декларативное описание политики в виде одной API команды с данными в формате JSON, которое несложно понять (а значит, увеличивается прозрачность операций).
Также такой подход уменьшает число вероятных ошибок, связанных с последовательностью или полнотой команд API. К тому же, он позволяет легко переносить описание политики для приложения между платформами. В видео ниже показан реальный пример использования таких декларативных политик (с семнадцатой минуты):
3. Расширенные возможности безопасности.
Новый релиз NSX продолжает развивать концепцию микросегментации приложений. В этом направлении появились следующие новые возможности:
Белые списки адресов FQDN/URL на распределенном фаерволе (DFW) для разрешения определенного типа трафика ВМ к определенным адресам или хостам в датацентре:
Возможность анализа трафика на уровне гостевой ОС (guest introspection).
Возможности E-W service insertion (контроль трафика в пределах датацентра средствами сторонних IDS/IPS-систем).
Также в NSX-T 2.4 существенно был улучшен механизм аналитики и визуализации данных, а также появилась поддержка Splunk и VMware vRealize Log Insight.
Ну а о новых возможностях обеспечения сетевой безопасности можно узнать из этого видео:
4. Высокий уровень масштабируемости, надежности и производительности.
Прежде всего, в рамках новых возможностей в этой категории, у NXS-T появилась полноценная поддержка протокола IPv6. Кластер NSX-T теперь состоит из 3 полноценных и равноправных узлов, что дает расширенные возможности по масштабированию решения и обеспечению надежности.
В одном NSX-домене теперь может быть более 1000 хостов с полной поддержкой разделения сетевой инфраструктуры между различными клиентами уровня виртуального датацентра.
5. Партнерства и новые возможности для пользователей.
Со стороны NSX-T поддержка продуктовой линейки VMware и партнерских решений была существенно расширена. Теперь такие решения, как Kubernetes, VMware PKS, Pivotal Application Service (PAS) и Red Hat OpenShift в различной мере поддерживаются NSX-T, и их поддержка будет только расширяться.
Более подробно о новых возможностях VMware NSX-T 2.4 рассказано в Release Notes. Скачать продукт можно по этой ссылке. Вот еще несколько полезных ресурсов: